Googlen Project Astra, Veo ja Gemini: Taistelun AI Edistysaskeleet
Tämä on Googlen vastaus OpenAI:lle.
Yleinen AI, AI, jota voidaan todella käyttää päivittäin, olisi noloa pitää lehdistötilaisuus, jos se ei ole tällaista nyt.
15. toukokuuta varhain aamulla, teknologian maailman vuosittainen "Kevätfestivaali" Google I/O Kehittäjäkonferenssi alkoi virallisesti. Kuinka monta kertaa tekoälyä mainittiin 110 minuutin pääpuhujatilaisuudessa? Google on laskenut sen:
Kyllä, AI:stä puhutaan joka minuutti.
Generatiivisen AI:n kilpailu on viime aikoina saavuttanut uuden huipun, ja tämän I/O-konferenssin sisältö pyörii luonnollisesti tekoälyn ympärillä.
"Vuosi sitten tällä lavalla jaoimme ensimmäistä kertaa suunnitelmamme natiivista multimodaalisesta suuresta mallista, Geministä. Se merkitsi uuden aikakauden alkua I/O:ssa," sanoi Googlen toimitusjohtaja Sundar Pichai. "Tänään toivomme, että kaikki voivat hyötyä Geminin teknologiasta. Nämä mullistavat ominaisuudet tulevat vaikuttamaan hakuun, kuviin, tuottavuustyökaluihin, Android-järjestelmiin ja moniin muihin osa-alueisiin."
Tällä hetkellä sekä 1.5 Pro että 1.5 Flash ovat saatavilla julkisessa ennakkonäytössä ja tarjoavat 1 miljoonan tokenin konteksti-ikkunan Google AI Studiolla ja Vertex AI:lla. Nyt 1.5 Pro tarjoaa myös 2 miljoonan tokenin konteksti-ikkunan kehittäjille, jotka käyttävät API:a ja Google Cloudin asiakkaille odotuslistan kautta.
Lisäksi Gemini Nanoa on laajennettu pelkästä tekstisyötteestä kuvasyötteeseen. Myöhemmin tänä vuonna, alkaen Pixelistä, Google julkaisee multimodaalisen Gemini Nano:n. Tämä tarkoittaa, että mobiilikäyttäjät voivat käsitellä paitsi tekstisyötteitä myös ymmärtää enemmän kontekstuaalista tietoa, kuten visuaalisia, ääni- ja puhedataa.
Gemini-perheeseen liittyy uusi jäsen: Gemini 1.5 Flash
Uusi 1.5 Flash on optimoitu nopeutta ja tehokkuutta varten.
Uuden sukupolven avoimen lähdekoodin suuri malli Gemma 2
Tänään Google julkaisi myös sarjan päivityksiä avoimen lähdekoodin suuresta mallista Gemma – Gemma 2 on täällä.
Kuten esiteltiin, Gemma 2 hyödyntää uutta arkkitehtuuria, jonka tavoitteena on saavuttaa mullistava suorituskyky ja tehokkuus; uudet avoimen lähdekoodin malliparametrit ovat 27B.
Pitkissä videoissa Veo voi tuottaa videoita, jotka ovat 60 sekuntia tai jopa pidempiä. Se voi tehdä tämän yhdellä kehotteella tai antamalla sarjan kehotteita, jotka yhdessä kertovat tarinan. Tämä on avain videotuotantomallien soveltamiselle elokuvateollisuudessa.
Veo perustuu Googlen työhön visuaalisen sisällön luomisessa, mukaan lukien Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere ja muita.